消费者经常阅读产品评论以告知他们的购买决定,因为一些消费者想了解产品的特定组成部分。但是,由于产品评论上的典型句子包含各种详细信息,因此用户必须在许多评论中识别有关他们想知道的组件的句子。因此,我们旨在开发一个系统,以识别和收集句子中产品的组件和方面信息。我们基于BERT的分类器分配了标签,这些标签参考了评论中的句子和句子的各个方面,并提取有关特定组件和方面的评论的句子。我们根据产品评论的模式匹配来确定的单词确定了适当的标签,以创建培训数据。因为我们无法将单词用作标签,所以我们仔细创建了涵盖单词含义的标签。但是,培训数据在组件和方面对不平衡。我们使用WordNet介绍了一种数据增强方法来减少偏差。我们的评估表明,该系统可以使用图案匹配来确定道路自行车的标签,涵盖了88%以上的电子商务网站上的组件和方面指标。此外,我们的数据增强方法可以从0.66到0.76提高F1的F1量度。
translated by 谷歌翻译
在自然语言处理(NLP)中,通常从频率信息估计n-gram的似然比(LR)。然而,语料库只包含可能的n克的一小部分,并且它们中的大多数很少发生。因此,我们希望LR估算器用于低频和零频率N-GRAM。实现这一目标的一种方法是将n-gram分解成离散值,例如字母和单词,并占据LRS的乘积。但是,因为该方法处理大量离散值,所以估计的运行时间和内存用法是有问题的。此外,使用不必要的离散值会导致估计精度的恶化。因此,本文提出将上述方法与文档分类中使用的特征选择方法相结合,并表明我们的估计器为低频和零频率提供了有效和有效的估计结果。
translated by 谷歌翻译